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摘 E: 人 体 行为 识别 应 用 广泛 ， 是 人 工 智 能 领域 研究 的 热点 问题 ， 针 对 人 体 行为 识别 算法 进行 归纳 总 结 ， 具 有 很 重 
要 的 参考 价值 。 以 行为 识别 为 核心 ， 同时 包含 数据 集 、 动 作 分 割 等 内 容 。 引 言 部 分 主要 讲述 人 体 行为 识别 的 基础 流程 ， 
数据 集 部 分 归纳 了 人 体 行为 识别 常用 的 数据 集 ， 动 作 分 割 方法 总 结 了 时 域 分 割 的 发 展现 状 和 常用 的 方法 ， 传 统 方法 讲 
解 了 人 体 行为 识别 比较 经 典 的 方法 ， 深 度 学 习 方 法 归纳 了 人 体 行为 识别 最 新 最 热 的 深度 学 习 方 法 。 引 入 了 动作 分 割 ， 
再 结合 行为 识别 ， 能 够 实现 连续 的 人 体 行为 识别 ， 使 得 行为 识别 适用 于 实际 场景 ， 而 不 再 是 对 经 过 人 工 剪 辑 好 的 单个 
视频 进行 识别 ， 这 在 实际 应 用 中 意义 重大 。 
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Survey of human action recognition algorithms based on vision 
Chen Yuping, Qiu Weigen 
(School of Computers Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: Human action recognition is a hot issue in the field of artificial intelligence. So it has important reference value to 


summarize the human action recognition algorithms. This paper focused on action recognition and included data sets and 


motion segmentation. The introductory part mainly described the basic flow of human action recognition. And the data sets 
part summarized the commonly used data sets of human action recognition. Then the motion segmentation method 
summarized the development status and common methods of time domain segmentation. Next the traditional methods 
explained the classic algorithms of human action recognition. At last, the deep learning methods summarized the 


the-state-of-art deep learning methods of human action recognition. The introduction of action recognition combines with 


action segmentation makes the action recognition applicable to the actual scene, which can achieves continuous recognition of 


human action. Meanwhile it is no longer recognize a single video that has been manually edited. This has very important 


reference value in practical applications. 
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能 够 很 好 的 获取 视频 中 的 空间 和 时 间 信 息 ， 准 确 率 得 到 大 大 的 
提升 。 基 于 视频 的 行为 分 析 由 于 扩展 性 强 ， 灵 活 度 高 ， 得 到 了 
人 体 行为 识别 主要 根据 采集 到 的 视频 来 分 析 人 体 行为 , 这 ”广泛 的 研究 和 应 用 。 


0 引言 


在 视频 监控 、 医 疗 康复 、 健 身 评 估 、 人 机 交互 等 领域 应 用 广泛 ， 人 体 行为 识别 处 理 流程 一 般 可 以 分 为 特征 提取 、 特 征 处 理 、 
是 计算 机 视觉 研究 的 热点 问题 。 学 习 算法 输出 结果 三 步 。 首 先 从 原始 视频 中 提取 特征 ， 经 过 一 


从 实现 方式 来 分 类 ， 可 以 把 人 体 行为 识别 分 为 基于 传感器 。 定 的 处 理 , 形成 一 个 特征 描述 符 , 最 后 通过 学 习 算 法 实现 分 类 。 
[视觉 两 种 ， 当 然 也 包含 这 两 者 的 结合 。 基 于 传感器 的 行为 识 。 对 于 有 些 学 习 算 法 输入 维度 固定 ,而 特征 描述 符 不 固定 的 情况 ， 
1 由 于 要 佩戴 相应 的 传感器 ， 使 用 不 够 灵活 ， 操 作 复 杂 ， 扩 展 ” 还 要 通过 一 定 的 方法 对 特征 描述 符 进行 聚合 ， 使 得 输入 维度 固 
生 不 强 ， 用 户 体验 得 不 到 有 效 保证 等 原因 ， 因 此 只 能 在 一 些 特 ” 定 。 本 文 加 入 了 动作 分 割 ， 即 可 实现 连续 的 人 体 行为 识别 ， 流 
定 领域 中 使 用 ， 基 于 视觉 的 行为 识别 又 可 以 分 为 基于 单 帧 图 像 ” 程 图 如 图 1 所 示 。 
和 视频 的 识别 ， 基 于 单 帧 图 像 的 行为 识别 由 于 不 能 有 效 获 取 行 本 文 主要 从 数据 集 、 动作 分 割 、 传 统 方法 和 深度 学 习 方法 
为 的 连贯 时 间 信息 ， 通 常会 产生 误 判 ， 而 基于 视频 的 行为 识别 ”四 个 方面 进行 介绍 .首先 介 绍 目前 常用 的 人 体 行为 识别 数据 库 ， 
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数据 库 。 


主要 介绍 最 近 


然后 介绍 动作 分 割 ， 这 主要 针对 连续 
的 行为 识别 ， 相 对 于 传统 的 只 支持 单个 动作 的 识别 有 更 大 的 优 
势 。 传 统 方法 主要 介绍 行为 识别 的 常 / 
几 年 基于 深度 学 习 的 行为 识别 技术 。 


方法 ， 而 深度 学 习 方法 


图 1 行为 识别 基本 流程 
1 ER 
为 了 方便 实验 ， 出 现 了 很 多 人 体 行为 识别 数据 集 巾 ， 可 以 
把 它 划 分 成 二 维和 三 维 数 据 集 ， 二 维 数据 集 一 般 用 普通 的 摄像 
头 进行 采集 , 而 三 维 数据 集 一 般 用 如 Kinect 等 可 以 获取 深度 信 
息 的 特殊 摄像 头 进行 采集 ， 三 维 数据 集 由 于 包含 图 像 的 深度 信 
息 ， 因 此 信息 更 加 丰富 。 
1.1 二 维 数据 库 
二 维 数据 库 起 步 较 早 ， 从 发 展 趋势 来 看 ， 数 据 集 逐 步 趋 于 
复杂 ， 行 为 种 类 更 加 丰富 ， 场 景 更 加 多 样 ， 每 个 行为 的 样本 数 
变 得 愈加 庞大 ， 对 算法 提出 了 更 加 严 苛 的 挑战 。 表 1 列 出 了 常 
用 的 二 维 数据 集 。 
表 1 常用 二 维 数据 集 概览 
数据 集 时 间 ”行为 类 别 UL 数据 来 源 
KTH”! 2004 6 599 实验 采集 
Weizmann! 2005 10 93 实验 采集 
IXMASG 2006 13 180 实验 采集 
Hollywood!“ 2008 8 663 电影 
Hollywood 2" 2009 12 3669 电影 
UCF sports'*! 2008 10 150 广播 电视 
UCF YouTube"! 2008 1 1600 YouTube 
UCF5000 2013 50 6676 YouTube 
UCF10100 2012 101 13320 YouTube 
HMDB51I 2011 51 E 
Sports-1MI3 2014 487 1133158 YouTube 
KTHO 是 最 早 的 人 体 行为 数据 集 ， 它 包含 的 数据 比较 少 ， 


据 集 比 较 简 和 


只 有 6 类 行为 
名 ， 但 是 对 人 体 行为 识别 起 到 了 里 程 碑 式 的 作用 。 


k 2391 个 视频 ， 一 


WeizmannB'4 


k25 个 人 的 数据 ， 虽 然 该 数 


数据 集 包 含 10 类 行为 共 93 个 视频 ， 一 共 9 个 人 


陈 煜 平 ， 等 : 


的 数据 , 也 是 比较 小 的 一 个 数据 集 
180 MIS, BINZ% 


基于 视 


多 视角 的 研 
比较 通用 的 数据 集 ， 
前 很 少 使 用 。 

Hollywood!® 


Be 


的 数据 来 自 


32 部 


究 提 供 了 比较 可 靠 的 数据 。 这 三 个 数据 身 
% 场景 简单 ， 没 有 复杂 


EED, 


ChinaXiv 合 人 
见 觉 的 人 体 行为 识别 算 


aur 


和 


。IXMASDI 包 含 13 种 行为 共 
昌 集 比较 小 ， 但 是 包含 了 5 个 视角 ， 


期 二 


法 研究 综述 


对 


都 是 


FG EIS 
电影 中 剪辑 出 了 8 类 行为 共 663 个 视频 。 


Ab 


HIR’ 


有 影 中 的 视频 剪辑 ， 从 
Hollywood 2! 


是 在 Hollywood 的 基 
12 类 行为 共 3669 个 视频 。 
包含 复杂 的 背景 、 光 照 变化 、 

UCF 包含 了 一 系列 数 
富有 挑战 性 。UCE sports"! 
频道 ， 包 含 10 类 行为 共 150 个 视频 ， 它 的 视频 分 辨 
场景 。UCF YouTube 


接近 自然 


础 上 进行 所 


R, A 69 部 


电影 中 


剪辑 


于 这 两 


H 


实 场景 ， 


个 数据 集 接近 


日 


遮挡 
BE, PIKES, ZAT 
的 数据 来 源 于 BBC 和 ESPN 等 电视 


等 ， 具 有 一 定 的 


wT? 


9 现 称 UCF11, 24 


挑战 性 。 
泛 关注 ， 


率 比 较 高 ， 
ERF 


YouTube, 447 11 类 行为 共 1600 个 视频 ， 它 对 视频 进行 了 分 


组 , 每 组 具有 


行为 类 别 从 UCF YouTube 
iN 


个 视频 ， 具 有 一 定 
包含 110 种 动作 类 另 


= 


低 质量 和 不 同 光照 的 视频 ， 


GAR PE 


些 共 同 特 性 。UCF5000 


UCF10101 


天 


挑战 性 。 


的 数据 来 源 于 YouTube, 
的 11 种 扩展 到 了 50 种 , 共 包 含 6676 
是 对 UCF50 的 扩展 ， 
k 13320 个 视频 ， 由 于 该 数据 集 包 含 很 多 
此 极 


ERE f 


HMDB5102 数 据 主要 来 源 于 电影 和 一 些 公共 资源 , 包含 51 
种 行为 类 别 共 6849 个 视频 , 由 于 该 数据 集 来 源 多 样 ，; 
含 的 场景 复杂 、 光 照 条 件 变 化 等 因素 ， 是 目前 最 具 挑 
据 集 之 一 。Sports-1M03 的 数据 集 来 自 于 YouTube, Æ 2014 年 


Google 公布 的 一 个 大 型 数 引 


aur 


| 


» BA 289 种 行为 类 别 共 1133158 


个 视频 ， 每 个 动作 类 别 包含 1000 到 3000 个 视频 ， 超 过 一 百 万 
个 视频 的 庞大 数据 集 ， 是 前 面 的 数据 集 无 法 逾越 的 优势 ， 该 数 
据 集 包含 场景 多 ， 种 类 多 样 ， 极 具 挑 战 性 。 
1.2 三 维 数据 集 
由 于 人 体 行为 存在 自 遮 挡 等 问题 ， 二 维 的 数据 不 能 很 好 地 
解决 这 些 问题 ， 而 三 维 的 数据 能 够 提供 更 多 的 信息 ， 对 自 遮 挡 
的 信息 得 到 了 补充 ， 使 得 人 体 行 为 识别 变 得 相对 容易 ， 但 会 使 
得 数据 集 变 得 复杂 ， 处 理 起 来 也 变 得 相对 困难 。 然 而 由 于 计算 
机 硬件 的 发 展 ， 三 维 数据 的 采集 和 处 理 变 得 容易 和 方便 ， 微 软 
Kinect 的 应 用 就 是 一 个 很 好 的 例子 。 表 2 列 出 了 常用 的 三 维 数 
据 集 。 
表 2 三 维 数据 集 概览 
数据 集 时 间 ”关节 点 数 ”动作 类 别 ”样本 数 采集 设备 
CMU Motion Caption(Mocap)n4 2016 41 6 2605 8 个 红外 摄像 头 
MSR Action 3D!"5! 2010 20 20 567 Kinect v1 
MSR Daily Activity 3D09 2012 20 10 320 Kinect v1 
UCF Kinect” 2013 15 16 1280 Kinect v1 
N-UCLA Multiview Action3D"® 2014 20 10 1493 =@ Kinect v1 
UTD-MHAD!"""! 2015 20 17 861 Kinect vl 和 IMU 
NTU RDB+D""! 2016 25 60 56880 Kinect v2 


CMU Motion Caption (Mocap) 0 是 卡 内 基 梅 隆 大 学 发 布 
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f 数据 集 , 


41 个 人 体 关节 点 信息 ， 它 
2605 SB, ER KREG 
的 数据 能 够 构建 完整 的 人 体 三 维 行为 模型 。 
于 微软 Kinect 的 出 现 , 很 多 数据 库 在 此 基础 上 进行 了 采 
Kinect 进行 采集 ， 提供 20 个 节 


集 工 作 。MSR Action 


进行 采集 ， 并 提供 了 


通过 8 个 红外 摄像 


3DI51 使 用 


包含 6 大 类 行为 和 23 个 子 类 行为 共 
四 又 包含 一 个 或 多 个 行为 类 别 ， 提 供 


点 的 人 体 骨架 数据 和 深度 图 , 包含 20 种 行为 共 567 个 数据 ,该 


数据 集 的 视频 比较 纯粹 ， 没 有 背景 ， 但 


有 一 定 的 难度 ， 目 前 


也 是 通过 Kinect 进行 采集 , 主要 是 生活 中 
t320 个 数据 ， 该 数据 集 背 景 是 真 


种 行为 
战 性 。UCF Kinect!!!” 


微软 的 SDK 来 评估 骨架 序列 ， 
每 个 序列 有 15 个 骨架 节 
N-UCLA Multiview Action3 DES% 


TRESKA, WA 


使 用 比较 广泛 。MSR Daily Activity 3D! 


的 日 常 行为 , 包含 10 


实 环境 ， 所 以 更 具 挑 


同样 采用 Kinect 采集 数据 ， 但 是 它 没 有 用 


而 是 用 OpenNI 来 评估 骨架 序列 ， 
点 ， 包 含 16 种 行为 共 1280 个 数据 。 
居 集 采用 了 三 台 Kinect 进行 


采集 ， 因 此 包含 了 三 个 视角 ， 包 含 10 种 行为 共 1493 个 数据 ， 


该 数据 集 的 每 个 行为 都 是 从 不 同 视角 采 身 
性 。UTD-MHADI9! 通 过 Kinect 和 IMU 进行 采集 ， 提 供 20 


上 骨架 节点 ， A 177% 


第 二 代 Kinect 进行 采集 ， 提 供 25 个 


56880 个 数据 。 


2 ”动作 分 割 


aur 


中 行为 共 861 个 数据 。 


此 处 的 动作 分 割 指 的 是 把 连续 的 动作 


即时 域 分 割 ， 也 就 是 


动作 分 割 算 法 能 准 


确 


判断 每 个 动作 的 的 边 


视频 中 分 割 出 来 。 


基于 PCA 的 方 


上 进行 的 ， 而 在 现实 中 采集 的 数据 都 是 
因此 动作 分 割 对 实现 连续 的 人 体 行为 


于 目前 行为 识别 都 是 
BE 


说 如 果 一 个 视频 中 包含 走 、 


的 ， 具 有 一 定 的 挑战 


> 


NTU RGB+D[201 通 过 
共 


骨架 点 ,包含 60 种 行为 


从 视频 中 分 割 出 来 ， 
跑 、 跳 等 动作 ， 
界 ， 并 把 该 动作 从 原 
在 已 经 分 割 好 的 数据 


法 


Barb 记 等 人 5 提出 了 三 种 方法 ，PCA 


GMM 方法 ，PCA 方 


未 进行 动作 分 割 的 视 
识别 至 关 重 要 。 


方法 、PPCA 方法 和 


法 基于 这 样 的 想法 : 


包含 单个 行为 的 运动 


序列 的 固有 维 数 应 该 小 于 包含 多 个 行为 的 运动 序列 的 固有 维 


度 。 通 过 计算 离散 的 


认为 这 是 过 渡 点 。PPCA 是 在 PCA 的 基础 上 改进 而 来 ， 基 于 假 


di 急剧 上 


RE di, * 


设 “ 动 作 序列 符合 高 斯 分 布 ， 两 个 不 同 的 


IWS 


别 ”， 采 用 


过 度 点 ， 通 过 计算 滑动 窗 


认为 这 个 是 过 渡 点 。 


(同时 前 向 滑动 和 后 
的 马 氏 距离 ， 


GMM 基于 假设 “ 动 


作 都 符合 不 同 的 高 


达到 分 割 的 目 


的 。 


斯 分 布 ”， 


EM (expectation maximization) 来 评估 高 


基于 PCA 的 方法 都 基于 一 定 的 


通过 PCA 


升 超过 固定 值 时 ， 就 


动作 将 会 有 很 大 的 区 
向 滑动 ) 的 机 制 来 找 
当 到 达 极 大 值 点 时 ， 
作 序列 中 的 每 一 个 动 
投影 在 超 平面 上 ， 用 


段 设 ， 


斯 模型 的 参数 ， 以 此 


有 一 定 的 局 限 性 ， 


其 中 GMM 方法 还 要 
数 ， 而 大 多 数 情况 下 是 未 知 的 。 不 过 该 类 方法 
实现 也 相对 比较 简单 ， 对 一 些 符合 假设 的 应 ) 


J> 
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yi 


S&S 


求 事先 知道 每 个 视频 中 包含 的 动作 类 别 
对 硬件 的 要 求 不 
可 以 轻易 实 


Zhou 等 人 的 提出 了 基于 聚 类 方法 的 动作 分 割 ACA 


(Aligned Cluster Analysis) ，ACA 使 用 两 
kmeans RŽ: a) 聚 类 包含 可 变数 量 的 特 
内 核 用 于 实现 时 间 不 变性 。 


(DTW) 


time alignment kernel ) 


种 方式 扩展 了 标准 的 
IE; b) 动态 时 间 规 整 

使 用 了 DTAK (dynamic 
序列 进行 度量 ， 因 为 DTW 


> 


来 对 两 个 时 间 


不 是 


个 正确 定义 的 度量 ， 


局 不 满足 三 角形 约束 。Zhou ALPA 


提出 了 HACA 方法 ， 是 在 ACA 的 基础 上 进行 了 改进 ，HACA 


提供 了 用 


聚 类 和 可 视 化 时 间 序 列 数据 的 


AKA 


提供 了 


几 个 时 间 尺 度 的 分 层 分 解 。 时 间 聚 类 问题 是 能 量 最 小 化 ， 而 最 


坐标 下 降 最 小 化 方法 。 


小 化 HACA 是 一 个 NP 问题 ， 


通过 动态 规划 提出 了 一 种 有 效 的 


Xia 等 人 P4 提 出 了 基于 SSC (sparse subspace clustering, 稀 


Dit 


GF AR) 的 方法 ,通过 SSC 进行 子 空间 聚 类 ， 


再 使 用 


角形 约束 解决 在 不 同 的 时 间 段 内 相似 帧 不 会 被 分 到 同一 个 簇 ， 


保证 了 


时 间 上 的 连续 性 


> FAL IE Se AIM T eT) RS BY AE 


斯 噪 
相似 矩阵 ， 


1 


。 最 后 所 有 的 系数 矩阵 的 绝对 平均 值 将 ) 
的 是 重建 不 同 关 节点 之 间 的 关系 ， 而 不 会 因为 把 
整个 序列 视 为 一 个 整体 而 忽 
基于 聚 类 的 方法 一 般 整 体 效 果 要 优 于 基于 PCA 的 方法 , 时 


3 于 最 终 的 分 害 


各 关节 点 之 间 的 关系 。 


间 复 杂 度 也 相对 较 高 ， 
虑 ， 是 作为 应 用 的 


但 对 硬件 要 求 不 高 ， 综 合成 本 和 需求 考 


里 想 选择 。 


23 ”基于 深度 学 习 的 方法 
Lea 等 人 5 提出 了 TS-CNN 方法 ， 引 入 了 低级 编码 视觉 信 


息 的 时 空 CNN (ST-CNN) 和 捕 


获 高 级 时 间 信 息 的 半 马 尔 可 夫 


模型 。STCNN 的 空间 分 量 是 VGG 的 一 个 变 体 ， 用 于 编码 对 


象 状态 、 位 置 和 对 象 间 关 系 的 旨 
尔 可 夫 和 条 件 随 机 场 《CRF) 共同 分 割 


粒度 任务 。 分 段 组 件 使 用 半 马 


分 类 动作 。 


Lea 等 人 P91 提出 了 TCN 方法 ， 如 图 2 所 示 ，TCN 又 可 以 
分 为 ED-TCN 和 Dilated TCN， 其 中 ED-TCN 引入 了 编码 和 解 
码 网 络 ， 而 Dilated TCN 是 从 WaveNet 改进 过 来 的 ， 但 他 们 又 
具有 共同 的 特点 : a) 计算 层次 执行 ， 这 意味 着 每 个 时 间 步 同步 


et, m 


不 是 逐 帧 更 新 ; 


b) 卷 积 是 跨 时 间 计 算 ，c) 在 每 个 帧 


处 的 预测 是 固定 长 度 的 时 间 段 的 函数 ， 其 被 称 为 接收 场 。 其 中 


ED-TCN 的 效果 优 于 Dilated TCN. 


该 类 方法 是 目前 


码 器 ) 加 其 他 机 器 学 习 方法 的 组 合 ， 效 果 也 要 优 于 其 他 方法 ， 


般 都 使 用 CNN (或 自动 编 


TON ID 


=I 


但 是 对 硬件 配置 的 要 求 较 高 ， 而 且 依赖 大 量 的 数据 ， 实 现 起 来 
比较 困难 ， 不 过 模型 小 型 化 也 是 一 个 不 错 的 选择 。 
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24 其 他 方法 


Devanne M 等 人 在 黎 曼 形状 空 


使 用 邻 域 图 
了 扩展 的 
中 分 荐 


TS-WMCS 方法 ， 利 | 
传统 方法 


传统 方法 主要 是 人 工 提取 特征 ， 
立 好 的 模型 上 识 


3 


的 模型 ， 再 在 建 


通过 动态 朴素 贝 叶 


2 LeaC 4 AP} 


IKE 


图 


提出 的 TCN 方法 , 左 


为 ED-TCN 


zs 间 中 研究 运动 轨迹 形状 ， 


有 分 类 器 实现 动作 分 割 。V6gele A 等 人 中 
的 方法 来 分 割 动作 序列 ， 
HMM (HMM-MIO) ) 模型 
1 和 分 类 是 放 在 一 起 进行 的 。 


Borzeshi E Z 等 人 29 使 用 
行动 作 分 割 和 识别 ， 其 
Liu S 等 人 B0 提 出 了 


时 间 序 列 扭 


的 曲率 实现 分 割 。 


上 分 为 整体 表示 方法 和 局 
整体 表示 方法 
整体 表示 方法 把 人 体 行 为 表示 为 一 个 整体 ， 
人 体 行为 。Bobick650 提 出 
MHI (运动 历史 图 像 》》， 划 
关 信息 进行 编码 。 其 中 MHI 模板 显示 运动 
中 的 每 个 像素 是 该 点 处 的 运动 的 时 间 历 史 的 函 


3.1 


了 经 典 的 MEI (运动 能 量 


还 要 建立 起 表示 人 体 行为 


上 识别 人 体 行为 ， 可 以 从 表示 方式 
部 表示 方法 。 


用 于 整体 分 析 
图 像 》 和 


基本 思想 


个 图 像 对 运动 相 


是 通过 


图 像 如 何 移动 , MHI 
数 《〈 即 更 高 的 强 


度 对 应 于 更 近 的 运动 ) ， 因 此 MEI 和 MHI 模板 包含 有 关 视 频 


信息 。 


主要 思想 


Blank 等 人 DB2 提 
通过 在 时 空中 的 剪影 引起 的 三 乡 
如 图 3 所 示 。 ae 


MHI 模板 ， 


区 | 


=| 


H, EER 


的 表面 提取 的 一 组 属 


显示 是 鲁 棒 的 。 


表明 


Yaa 


3 Blank M 等 人 625 提 

Yilmaz A 等 人 BI 根据 时 空 
行为 。STV RAM laf 
状 的 变化 表征 了 潜在 的 


出 了 MEI 模 板 的 体积 扩 


维 体积 的 扩展 增加 了 视点 变化 的 鲁 棒 性 。 


展 ， 
ETE TKR ABLE 
时 空 体积 代表 


出 的 三 维 


AD 


体积 CSTV) 的 不 同 特性 


BRR AT ABE 


来 确定 


鬼 体 轮 亡 而 建立 的 。STYV 的 方 


动作 。 动 作 描述 是 从 STV 


性 (如 高 


斯 曲率 


) 3 


且 对 于 观察 点 变化 


整体 方法 也 存在 一 定 的 不 足 。Dollar 等 人 的 研究 表明 ， 


RAB KEP, #: 视觉 的 人 体 行为 法 研究 综述 


Block2, Block3! 


与 Block1 相 似 | 


输入 : x O G 


Matikainen 


的 结构 , 右 图 为 Dilated TCN 
整体 的 方法 太 僵 化 ， 不 能 
P 等 人 B9 认 为， 基于 


的 结构 


效 捕 提 行 为 的 视点 、 和 遮挡 等 变化 ， 
轮廓 的 表示 不 能 捕 


HAC BN AY 


细节 。 AL tk, 


3.2 局 部 表示 方法 


局 部 表示 方法 把 视频 中 的 一 个 
等 人 
法 的 人 体 行为 识别 葛 定 了 基础 ，4 
点 检测 、 
兴趣 点 检测 : 


动 ，Laptev 


流程 : 


兴 


la] 25 ZY 


到 的 兴趣 点 的 统计 属 


37] 提 


二 


Harris 角 点 探测 器 。 


局 部 描述 符 提 取 : 提取 时 空 兴 


提取 时 空 兴 趣 点 ， 


行 处 


Es 


形成 一 个 局 


探测 


目前 局 部 表示 方法 和 深度 特征 更 受 


Bko 


局 部 


pais 点 , Liu J 


性 修剪 不 相关 的 特征 。 


区 域 用 来 描 
出 的 时 空 兴 趣 点 〈STIPs) 为 局 部 表示 方 
了 为 识别 的 局 部 表示 遵循 三 个 
局 部 描述 符 提 取 、 局 部 描述 符 聚 合 。 
需要 构建 STIP 探测 器 ， 
而 构建 探测 器 也 有 多 种 方法 。Laptev 等 人 B8 将 Harris 角 点 探测 
器 [9 扩展 到 3D-Harris 
， 还 需要 时 


器 ,在 3D Harris 中 ， 
间 上 的 重要 性 来 激发 探测 器 ， 
探测 器 识别 具有 大 空间 变化 和 非 恒 定 运动 的 点 。 为 了 解决 相机 
摇晃 激发 的 一 些 列 不 相关 的 兴 


述 人 体 的 运 


除了 丰富 的 空 
3D Harris 


等 人 Fl 建议 使 用 检测 
当然 ， 还 


他 的 方法 和 在 上 述 方法 的 基础 上 改进 的 方法 ， 但 最 经 典 包 


部 的 描述 符 来 描述 人 体 行为 。Kliser 


[0 建议 使 用 梯度 方向 直方 
面向 方向 梯度 直方 图 
因此 被 命名 为 HoG3D 描述 符 。 
HoF) 作为 时 空 描述 符 
展 是 Dalal 等 人 (31 引入 的 运动 边界 直 


光 流 直方 图 


on ， MBH) 。 


觉 问 题 


So Zhao # 


volume LBP (VLBP) ， 局 部 volume | 
#4, LBP 还 有 


计 描 述 图 像 
时 空 


维 描述 符 ， 成 功 地 / 
41, LBP 描述 符 
等 人 561 介 


多 


=% 
EJ 


本 身 。 
轨迹 提 


启发 ， 


Laptev # 


趣 点 之 后 ， 


作为 运动 描述 
CHoG) 的 


付 ，HoF 描述 


点 进 
等 人 


不 和 + 
还 得 对 兴趣 


符 ， 描 述 符 本 身受 到 


其 本 身 跨越 时 空域 ， 
等 人 [9 将 局 部 区 域 上 的 
符 更 鲁 棒 的 扩 


[纹理 


方 图 (motion boundary 


部 二 进 制 模式 (LBP) 是 基于 强度 的 二 
于 包括 人 脸 识别 逢 


分 析 在 内 的 多 种 视 


符 通 过 量化 关于 
绍 了 二 维 


Ag fpa, 
区 域 。 
兴趣 点 可 能 并 不 位 于 长 方 体 的 时 
空间 位 置 处 ， 因 此 从 长 方 体 提 
轨迹 是 随 着 时 间 的 推移 
取 局 部 特征 主要 由 Messing 等 人 4 


其 强度 的 像素 尼 
LBP 描述 符 到 时 空域 的 各 种 


邻 域 来 计 
扩展 


方 图 编 


进 制 模式 的 直 


Sanin 


等 人 9 


取 的 特征 可 


提出 了 通过 二 阶 统 


a 


间 延 伸 内 完全 相同 的 


能 不 一 定 描述 兴趣 点 


E 确 跟踪 的 特征 


多 


， 如 图 4 所 示 ， 
和 Matikainen 等 人 B91 
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录用 稿 


提出 ,他 们 都 使 用 轨迹 速度 作为 局 部 特征 .Jiang 等 人 50 和 Wang 
等 人 50 使 用 相机 运动 校正 轨迹 来 改进 前 面 的 轨迹 。 

局 部 描述 符 的 选择 ， 最 受 青睐 的 当 属 轨迹 以 及 轨迹 的 一 些 
改进 方法 , 而 对 于 兴趣 点 是 选取 稀 玻 还 是 密集 ，Wang H EAP 
进行 了 详细 的 比较 ， 一 般 而 言 ， 密 集 的 效果 会 优 于 稀疏 ， 但 时 
间 和 空间 复杂 度 会 相对 较 高 。 


图 4 轨迹 描述 符 的 形成 

局 部 描述 符 聚 合 ， 从 视频 中 提取 局 部 特征 后 ， 为 了 能 够 对 
特征 进行 处 理 ， 通 常会 使 用 诸如 SVM 等 学 习 算 法 来 训练 得 到 
最 终结 果 , 但 通常 这 类 算法 大 多 数 只 接受 固定 大 小 的 向 量 输入 ， 


合 ， 并 提出 了 最 大 融合 、 平 均 融 合 和 逐 元 素 相 乘 融合 三 种 融合 


方式 ， 最 后 输出 最 终 的 结果 ， 
Karpathy 等 人 MI 在 卷 积 网 络 
融合 以 使 网 络 一 次 能 够 连续 输 


区 


获取 视频 中 的 时 间 信 息 ， 再 ; 
似 还 有 Chen 等 人 [616]1 的 了 
首先 通过 CNN 提取 空间 信 


个 CNN 网 络 进 
[ 作 Donahue J & AVE Y LRCN, 


P 逐 元 素 相 乘 融合 表现 最 好 。 
AEA FSM 
5 所 示 ， 这 样 能 够 


个 LSTM 网 络 提取 视 
频 中 的 时 间 信 息 ， 最 后 实现 分 类 。Sun 等 人 [也 提出 了 基于 
LSTM 的 方法 来 获取 视频 序列 中 的 时 间 信 息 。 


晚 融 合 慢 融合 
QQ SS 
—————s E 
=] =| =a 
— =| = 
= [=] 
=) =) 
= ==] = 
=] =] 

[=] =] 
=] =] = | 


] 


R] 


5 Karpathy A “AI 


五 等 人 [9 提出 


Sy 
AT 


所 以 需要 一 种 机 制 来 使 得 提取 的 局 部 特征 聚合 成 固定 大 小 的 


是 在 二 维 CNN 基础 上 加 入 了 时 间 


RY, 主要 有 三 种 机 制 。 第 一 种 主要 通过 BoV， 简 言 之 就 是 通 
过 给 定 一 个 “视觉 词 袋 ”或 “ 码 本 ”， 局 部 描述 符 在 码 本 上 的 
分 布 用 作 描 述 符 ， 相 关 的 工作 主要 有 Dollar P HABS 40 4% 931, 
但 是 近期 通过 Fisher Vector 编码 CFV) SATARA ERE 
的 做 法 ， 还 有 一 种 FV 的 简化 版 本 为 局 部 聚合 描述 符 向 量 


从 输入 视频 中 同时 学 习 空 间 逢 


的 晚 融合 、 早 融合 和 慢 融合 策 
E CNN(3D CNN ) 的 方法 ,3D CNN 


此 是 三 维 CNN， 


行 处 理 ， 类 


它 可 以 


寺 间 信息 , 该 方法 优 于 二 维 


CNN 


方法 。Wang 等 人 [9 提出 了 3D CNN 和 LSTM 相 结 合 的 


同时 对 原始 视频 进行 显著 牧 


CVLAD) 87, 在 Jain M 等 人 [8-1 中 得 到 了 成 功 的 应 用 ; 第 二 
种 使 用 时 空 词典 学 习 和 稀疏 编码 进行 聚合 ， 代 表 性 的 工作 有 
Zhu Y 等 人 !@2-65;， 第 三 种 通过 时 间 一 致 性 进行 聚合 ， 即 通过 将 
时 间 信 息 合 并 到 视频 描述 符 的 时 空 信息 中 ， 主 要 的 研究 集中 在 
HMM 〈 隐 马尔 可 夫 模 型 ) [9 和 CRE (条 件 随机 场 ) [91， 代 表 
性 的 工作 有 Hongeng S 等 人 [6@-733。 此 类 方法 较 多 ， 可 以 根据 问 
题 的 实际 情况 作出 选择 ， 不 过 第 二 种 和 第 三 种 方法 目前 使 用 的 
较 多 ， 从 整体 效果 来 看 ， 第 三 种 方法 一 般 是 最 好 的 。 


4 深度 学 习 方法 


相 比 于 传统 方法 , 深度 学 习 方 法 不 用 人 工 主 动 去 提取 特征 ， 
保留 了 视频 中 更 多 有 价值 的 信息 ， 从 效果 来 讲 ， 一 般 优 于 传统 
方法 。 深 度 学 习 方法 应 用 在 人 体 行 为 识别 不 仅 要 利用 到 视频 的 
空间 信息 ， 还 要 用 到 视频 的 时 间 信 息 ， 这 也 是 该 方法 研究 的 重 
点 。 

4.1 时空 网 络 


度 的 卷 积 能 够 很 好 的 获取 视频 中 的 时 让 
帧 数 。 另 外 ， 同 时 使 朋 


的 策略 。 
4.2 双流 网 络 


双流 网 络 中 的 时 间 信 息 和 空间 信息 采 月 
中 的 并 联 架 构 ， 两 个 网 络 ] 


果 却 比 单纯 的 CNN F 


网 络 ， 

检测 , 这 可 以 有 效 降低 网 络 的 参数 ， 
降低 训练 的 难度 ， 另 外 对 3D CNN 在 sport-1M 上 进行 预 训练 ， 
该 方法 在 UCF-101 上 能 
每 次 只 能 县 输 入 固定 的 帧 数 ， 因 出 
视频 的 时 间 信息 ， 复 杂 度 也 较 高 ， 存 在 一 定 的 局 限 1 
H LSTM 组 合 效 果 要 好 ， 说 明了 在 


的 识别 率 。 由 于 3D CNN 
0 LSTM 一 样 获取 整个 


生 ， 但 是 效 
时 间 维 
1 信息， 虽然 只 有 固定 的 


上 的 方式 有 点 


H 3D CNN 和 LSTM 的 组 合 也 是 一 个 很 好 


像 电路 


息 ， 最 后 采用 一 定 方式 进行 融合 。 
首次 提出 了 创造 性 的 双流 
CNN， 其 中 一 个 网 络 输入 视频 帧 以 获取 空间 信息 ， 另 一 个 网 络 
输入 视频 的 光 流 信息 以 获 ] 
融合 方式 为 平均 融合 或 者 
SVM 进行 融合 分 类 效果 表现 最 好 。 与 上 


Simonyan “ A [8° 


于 始 时 互 不 干涉 ， 各 自 提 取 各 


416 所 示 ， 采 月 


在 2014 年 
有 两 个 相同 的 


自 的 信 


两 个 网 络 进行 融合 ， 
了 融合 分 类 ， 其 中 使 用 
同时 ， 很 多 人 在 双流 网 


络 上 进行 了 一 系列 的 改进 。Feichtenhofer 等 人 !&0 从 融合 策略 上 


时 空 网 络 重点 在 于 如 何 提取 视 中 的 时 间 信 息 ， 一 般 使 用 


CNN 提取 空间 特征 ， 再 利用 其 他 如 LSTM 等 方法 提取 时 间 信 
息 ， 时 间 信 息 和 空间 信息 使 用 的 类 似 于 电路 中 的 串联 架构 ， 这 
种 网 络 架构 在 早期 的 方法 中 比较 流行 ， 效 果 一 般 也 优 于 传统 的 
方法 ， 得 到 了 广泛 的 应 用 。Li C 等 人 [提出 了 基于 LSTM 和 
CNN 的 方法 , 提取 多 个 人 工 定 义 的 不 同 特 征 , 然后 分 别 输入 到 
3 个 LSTM 网 络 和 7 个 CNN 网 络 共 ， 再 把 这 10 个 网 络 进行 融 


间 就 开始 进行 融合 ， 如 诺 


进行 了 改进 ， 不 像 原 来 双流 网 络 


6 PR, KHAKE 


网 络 好 ， 同 时 显著 减少 了 参数 的 数量 。Wang SEASHE H ot 
的 轨迹 GDT) 代替 光 流 提取 时 间 信 息 ， 空 间 网 络 不 变 ， 
L 迹 为 中 心 的 时 空 管 上 ， 其 中 生成 
的 描述 符 称 为 TDD,， 最 后 ， 使 用 Fisher 向 量 把 整个 视频 中 的 局 


局 部 ConvNet 响应 汇 


部 TDD 聚合 成 全 局 超 


效果 比 原 


线性 SVM 作为 分 类 器 来 执 


屋 是 最 后 进行 融合 ， 而 是 从 中 
的 双流 


并 将 
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行 行为 识别 。Wang 等 人 M9 在 双流 网 络 的 基础 上 ， 加 入 了 分 段 
AACR A, 提出 了 TSN 网 络 ， 如 图 7 所 示 ， 这 样 不 
仅 可 以 减少 复杂 度 ， 还 可 以 对 多 个 分 段 进 行 融合 ， 能 够 获取 更 
多 的 上 下 文 信息 。 时 间 流 网 络 的 输入 使 用 弯曲 的 光 流 〈warped 


optical flow fields) 来 代替 原 有 交流 ， 这 样 可 以 消除 相机 运动 带 
来 的 影响 。 另 外 在 训练 时 加 入 了 交叉 形式 预 训练 、 
据 增强 等 技术 ， 使 得 网 络 更 优 。 从 最 终 效 果 分 析 ， 时 间 网 络 的 
光 流 、 轨 迹 还 是 光 流 和 轨迹 的 改进 方法 ， 本 质 上 对 最 


输入 采 | 


正则 化 、 数 


时 间 网 络 
空间 网 络 


时 间 网 络 
空间 网 络 
时 间 网 络 


图 7 Wang 等 人 (9 提出 的 TSN， 这 是 划分 三 段 的 一 个 例子 
Chen 等 人 5 在 双流 网 络 的 基础 上 融入 半 耦 合 的 概念 , 并 应 


终 的 结果 影响 不 大 ， 决 定性 的 因素 还 是 在 网 络 的 结构 以 及 最 终 


的 融合 方式 。 


作为 输入 ; AR: 


图 6 左 图 : Simonyan 等 人 9 提 


的 双流 网 络 ， 采 


RGB Fuses HeT 


Feichtenhofer 等 人 08 的 双流 融合 网 络 融合 策略 


on A 


Spatial STPP-net 
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8 Wang 等 人 Ml 提 出 的 网 络 结构 ,使 用 了 3D CNN, 并 使 


总 之 ， 双 流 网 络 时 


果 好 , 还 为 行为 识别 的 


+ AA 
结果 ， 


目前 研究 最 火 的 框架 ， 不 仅仅 是 由 于 效 
联 架 构 提 供 了 很 好 的 思路 。 目 前 , TSN 
网 络 在 UCF101 上 已 经 达到 了 最 好 的 


可 见 双流 网 络 的 强 


大 , 不 过 同时 , 深度 学 习 对 硬件 要 求 高 ,极度 依赖 海量 的 数据 ， 
对 实际 应 用 提出 了 新 的 挑战 。 


43 其 他 网 络 


除了 时 空 网 络 ， 还 有 一 些 比较 优秀 的 网 络 架构 ， 特 别 是 一 
些 无 监督 方法 的 出 现 。 在 视频 分 析 中 ， 注 释 视频 数据 的 代价 高 
昂 ， 无 监督 技术 显著 优 于 监督 的 技术 。Yan X 等 人 M9 介绍 了 


Dynencoder 〈 一 种 深 自动 编码 器 ) 捕获 视频 动态 ， 


Dynencoder 


Multi-class scores | 


Moti 
( Feature | A 
$ 


用 在 极 低 分 辩 率 的 行为 识别 上 。 在 融合 方法 上 ， 提 出 了 相 加 融 
合 、 拼 接 融 合 和 卷 积 融合 ， 其 中 卷 积 融合 效果 最 好 。Wang X 
等 人 [95 使 用 使 用 了 3D CNN 来 代替 二 维 CNN， 为 了 网 络 能 够 
支持 任意 尺寸 和 和 长 度 的 视频 输入 ， 在 最 后 一 个 卷 积 层 不 用 普 
通 的 池 化 ， 而 是 采用 STPP (spatial temporal pyramid pooling) , 
使 得 输出 的 特征 维度 一 致 。 每 个 网 络 除了 3D CNN， 还 引入 了 
LSTM 或 者 CNN-E 来 学 习 时 间 信息 ， 最 后 进行 融合 ， 其 中 融 
合 层 使 用 元 素 最 大 、 元 素 和 、 或 者 级 联 三 种 方法 ， 模 型 如 图 8 
所 示 。Gammulle 等 人 589 提出 了 一 种 双流 的 LSTM 网 络 ， 开 始 
使 用 CNN 提取 信息 ，CNN 是 在 ImageNet 预 训练 的 VGG16， 
后 面 再 采用 LSTM, 并 提出 了 四 种 融合 策略 , 其 中 双流 的 LSTM 
表现 最 好 。 Zhao 等 人 [8 的 空间 网 络 采 用 3D CNN 网 络 , 时 间 网 
RH T RNN, RNN 使 用 了 双向 的 GRU, 输 入 为 人 体 的 骨架 序 
Fj, Æ NTU RGB+D 数据 集 上 取得 了 比较 好 的 效果 。 


| TT or 


CNN-E 
2 a ee ae 
ZEN | ZZN ZEN] 
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Motion STPP-net Motion STPP-net Motion STPP-net | 


本 


两 种 融合 策略 

被 证 明 合 成 动态 纹理 是 成 功 的 , 可 以 将 Dynencoder 视 为 表示 视 
频 的 时 空 信息 的 紧凑 方式 。 因 此 , 给 定 Dynencoder 的 视频 的 重 
构 误 差 可 以 用 作 分 类 的 均值 .Srivastava N 等 人 [9 提出 了 LSTM 
自 编码 器 模型 (图 9)， 由 编码 器 LSTM 和 解码 器 LSTM 组 成 ， 
其 中 编码 器 LSTM 接受 一 个 序列 作为 输入 并 学 习 相应 的 紧凑 表 
示 。 编 码 器 LSTM 的 状态 为 序列 的 紧凑 表示 ， 包 含 序列 的 外 观 
和 动态 时 间 信息 ,解码 器 LSTM 接收 学 习 到 的 紧凑 表示 以 重建 
输入 序列 。 
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非 预 测 解码 器 
编码 器 
oO 
输入 帧 
图 9 Srivastava N $% AIH] LSTM 自动 编码 模型 ， 内 部 的 圆圈 表示 LSTM 


间 


的 状态 (图 中 只 展示 了 三 帧 的 情况 )， 非 预测 解码 器 
建 原始 帧 ， 对 预 


无 序 序 


尝试 以 相反 的 顺序 重 
测 模型 进行 预测 未 来 帧 4 的 训练 ;5 和 6 状态 标记 上 的 颜色 
表示 存在 来 自 特 定 帧 的 信息 

时 间 相干 性 是 弱 监 督 的 一 种 方法 ， 如 果 模 型 分 别 由 有 序 和 
列 馈送 为 正 样 本 和 负 样 本 ， 则 可 以 通过 深度 模型 学 习 时 
相关 性 。 这 个 概念 已 被 Goroshin R 等 人 BI 和 Wang X 等 人 60 


用 
时 


KEEPA 283-95) H JG 
致 。 
别 ， 
{XpXo Xj}， 分 为 先决 条 件 集 Xp 
(2) ) 分 别 输入 相同 的 网 络 ， 然 后 通过 
符 映 射 到 从 X。 提 取 的 高 级 描述 


来 从 无 标签 的 视频 中 学 习 特征 。 Misral 等 人 B93 研究 如 何 使 用 
间 相 干 性 来 训练 行为 识别 和 姿态 估计 的 深度 模型 (图 10) ， 
组 进行 训练 ， 以 确定 一 个 给 定 的 序列 是 否 一 
另 一 个 与 时 间 相 关 性 相关 的 研究 是 Wang 等 人 99 的 行为 识 
分 为 两 个 阶段 进行 ， 如 图 11 所 示 。 对 于 视频 帧 集合 
( 式 (1) ) 和 效果 集 Xe Cath 
从 名 提取 的 高 级 描述 
作 。 


u 


t 


符 所 需 的 转换 来 标志 


X ,= {x XX (1) 
X e= {xX Xe Xr 2) 
AlexNet 架构 
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图 10 Misra I 等 人 [3 使 
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图 11 Wang 等 人 59 的 平行 卷 积 结构 
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前 ,无 监督 和 弱 监 督 的 方法 也 受到 广泛 的 青睐 ， 由 于 无 


需 
党 
方 


5 


法 $ 


学 
演 
都 
成 


人 工 标签 或 者 少量 标签 ， 具 有 很 大 的 应 用 价值 ， 是 未 来 的 非 
有 前 景 的 一 个 研究 方向 之 一 。 但 是 由 于 效果 还 没有 受 监 督 的 
法 好 ， 因 此 还 有 很 长 的 一 段 路 要 走 。 


结束 语 


本 文系 统 地 讲解 了 人 体 行 为 识别 相关 领域 的 数据 集 和 方 
包含 传统 的 方法 和 近期 比较 流行 深度 学 习 方法 ， 目 前 深度 
习 方法 已 经 成 为 了 主流 趋势 ， 并 从 简单 的 模型 向 着 复杂 模型 
化 ， 从 最 初 的 监督 方法 到 弱 监督 方法 及 以 后 的 无 监督 方法 ， 
是 未 来 发 展 的 趋势 。 动 作 分 割 的 引入 ， 使 得 连续 的 行为 识别 
为 可 能 ， 但 是 目前 的 动作 分 割 算 法 精度 还 很 低 ， 远 远 达 不 到 


应 


别 


用 的 要 求 ， 未 来 还 有 很 长 的 一 段 路 要 走 ， 动 作 分 割 和 行为 识 
融合 在 一 起 也 是 未 来 的 发 展 趋势 。 
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